第5章 リアルとバーチャルの融合―複合現実感―
from バーチャルリアリティ学
5.1 複合現実感
MR
5.1.1 概念
Paul MilgramはMRをバーチャリティのスペクトルを包括する概念と位置付けた
https://gyazo.com/9acf6633d9388167c766832c52aa301a
A taxonomy of mixed reality visual displays (1994)
ARは現実にVRの情報を重畳表示する
技術的課題
VR環境と実環境の位置合わせ
時間遅れの除去
AVは現実の環境をリアルタイムにモデリングしてVR環境でインタラクション可能にすることで、VR環境のリアリティの向上や現実との連携をする
実世界の情報をVRに持ってくる基素.icon
技術的課題
実時間での処理
5.1.2 レジストレーション技術
基底現実とVR世界の三次元座標系を一致させることを位置合わせ(幾何学的レジストレーション)と言う
人間は網膜に投影された二次元情報から三次元世界の情報を認知している
VR世界の描画を行うためには、この投影を模倣できればいい
具体的には、人間の視覚の位置姿勢と投影変換特性を計測し、それに基づいて描画する
投影変換に必要な情報:内部カメラパラメータ
ズームなどで変化する
倍率の固定を前提としたシステムではシステム利用前のキャリブレーションで取得できる
ビューイング変換に必要な情報:外部カメラパラメータ
撮像系の位置姿勢が時々刻々変化する。外部カメラパラメータをどう取得するのかが位置合わせの重要課題
外部カメラパラメータの計測をtrackingと呼ぶ
trackingの手法
アウトサイドイン
環境に設置したセンサを利用
インサイドアウト
ハイブリッド(上記の組み合わせ)
これらそれぞれに対してカメラ・センサ・ハイブリッドの組み合わせがある
センサ方式
屋外
位置と姿勢を別々のセンサで組み合わせることが多い
位置:GPS
姿勢:慣性センサ
屋内
設置したカメラでマーカーを検出して位置・姿勢(アウトサイドイン)
磁気センサ・天井の参照てんを画像センサで検出(インサイドアウト)
慣性センサで姿勢情報を取得してカメラと組み合わせる(ハイブリッド)
カメラ方式
撮像系がカメラの場合、カメラ画像そのものを利用可能(カメラ方式)
カメラ映像を使用しないセンサ方式特別する
利点
センサが不要でシステムが簡単になる
画像合成には許容誤差の異方性がある(視界に対して鉛直方向はずれても分かりづらい)が、カメラの場合はズレ最小化基準で計測するので許容誤差を達成しやすい
撮像系とセンサの同期ズレがない
マーカー方式
四角形の中に画像が入ってるマークがよくつ八日われる
ARToolKitとかで使われるやつ
対象Xの三次元位置がわかっている場合、Xの画像内での位置が分かれば位置姿勢推定ができる
このとき3次元空間中で一直線上にない3点が利用できれば解が定まるが、複数解が出る
4点以上あれば一意に定まる(だから四角形)
3点だけでもやる方法はある
trackingの履歴を使って運動の連続性を使う
スムースさにもとづく解の適合度を使う
これ何基素.icon
正方形だと回転がわからないので内部にマークとかを書く
自然特徴方式
マーカー配置したくない時に、環境中の特徴を利用してトラッキングを実行する方式
2023年現在、スマホに載っているARアプリは大体この方式基素.icon
問題を分割すると
特徴抽出問題
特徴をコンピュータ上の3次元情報とどう紐付けるかの対応問題
ボトムアップ方式
画像から特徴を抽出→特徴をモデルと照合→誤照合除去→位置・姿勢計算
トップダウン方式
予測を使って、限られた範囲で対応する特徴を探索する方法
利点
計算コスト・誤対応を減らせる
欠点
急に位置・姿勢が変わるとトラッキングが失敗する
トラッキング履歴などから位置・姿勢予測→予測に基づき特徴を投影→投影位置で対応特徴候補を探索→位置・姿勢計算
技術
SIFT 回転やスケール変化に頑健、FAST
画像の特徴量との照合時間を削減するためにANN、KD-Tree、Radomized Treeを使う
誤照合が必ず起きるので除去するためにRANSACを使う
位置姿勢計算での誤照合対策として外れ値に対応可能なM推定を使う(最小二乗法だと誤差影響が大きくなる)
事前モデリングが手間なのでトラッキングとモデリングを同時に行うSLAM、PTAM
5.1.3 実世界情報提示技術
5.1.3.1 ARにおける映像合成
映像合成方式
optical see-through:光学コンバイナ(ハーフミラーなど)を使う
見え方が自然
video see-through:カメラの映像に計算機の映像を合成する
画像処理がやりやすい
図で目からの距離によって分類している基素.icon
HMDベースのシステム
ダモクレスの剣はoptical see-through
人の視覚能力に匹敵するHMDは実現困難でトレードオフがある
パイロットに地理情報を提示するなら:視野と輝度が重要。視距離が遠方なので立体視は不要
手術支援で患部のデータを提示したいなら:分解能と立体感が重要、視野は小さくても良い
など
HMDの光学系
網膜投影ディスプレイ
弱レーザー光で網膜に直接映像提示する
水晶体の屈折力を利用しないので、視距離に関わらず鮮明、屋外でも利用できる
射出瞳が小さい
接眼光学系によるHMD
市販のはほぼこれ
広視野角のために relay optical system
小型化のために偏心光学系を使うこともある
free-form prism
反射屈折光学系(catadioprtric system)がよく使われる
ハーフミラーと凸面鏡で構成
ホログラフィック光学素子によるHMD
波長選択性によって透過度が高く、広い視野を確保できる
射出瞳が小さい
頭部搭載型プロジェクタ
肉眼と光学共役な位置に配置したプロジェクタの映像をハーフミラーを通して環境に投影し、環境に設置した再帰性反射スクリーンに反射させて肉眼に映像を見せる
映像歪みが存在しない
特殊なスクリーンが必要
遮蔽矛盾を一部解決できる
https://www.youtube.com/watch?v=t-sVO1nviSY
遅延
ARの場合、遅延の影響が基底現実とバーチャル環境の位置ずれとして現れる
予防
予測フィルタ
フレームレスレンダリング
映像更新範囲の限定
あらかじめ広範囲を描画しておく
video see-throghの場合は、計算が終わってから一緒に画面を出せば時間差はなくせる
画像の表示自体は遅れるのでVR酔いの原因になる
焦点深度
視距離が固定されるのが普通
解決策
アイトラとレンズシフト機構を内蔵して実時間で視距離を変化させる
可変焦点ミラーを使って多数の視距離に時分割で映像提示
Butterschotchはこっち?
プロジェクションベースのシステム
プロジェクションマッピング
支線追従不要
対象の実物体の幾何形状や色、観察者の位置を考慮しない場合、観察者から歪んで見える
プロジェクタがピンホール投影モデル(ピンホールカメラモデルのこと?)で記述できて、投影レンズの主点から放射状に発生するradial distortionもないという仮定を置いて幾何的補正や測光的補正を行う
幾何的補正
必要なもの:物体の正確な形状と、観察者及びプロジェクタの位置
マルチパスレンダリングで補正して、観察者の視点から投影テクスチャマッピングしたシーンをプロジェクトで描画する
条件によって簡素化できる
例:投影面が平坦な場合homographyという射影関係を求めることでテクスチャマッピングなしに単一パスで補正できる
測光的補正
5.1.4 実世界モデリング技術
depthとRGBをマップして三次元モデルを作る処理の説明
レンジセンサ
LiDARみたいなやつ基素.icon
三角測量に基づくもの(ステレオ)
受動型
2枚の写真(とカメラの位置)3D座標を復元する
光源に依存する
能動型
光切断法
ラインレーザーを対象物体に投影して、画像上の点に対する視線とレーザー投影面の交点を求める
どうやるの基素.icon
1回の計測でレーザー1ライン分の計測ができるので、ミラーを使って2次元的にスキャンする
https://www.youtube.com/watch?v=46ftvQ-lxpU
特徴
精度が高い
密度が高い
スキャンが遅い
光速を利用するもの
ステレオ方式は距離が遠いと精度が落ちるので、マシな光速を使う
Time of Flight
パルスレーザーが物体表面に当たって跳ね返ってくる時間を計算
通常コアセンサは1点までの距離を計測するセンサなので、ミラーなどスキャンする
位相差方式
レーザーが跳ね返ってくる時間計測を高精度に行うのは難しいので、強度変調をかけて位相差によって距離計測する方法
変調波長内と波長外の距離を判別できないが、より低周波な成分を検出すればいいので
どういうこと基素.icon
使い分け
限られた空間のモデル化には位相差方式が有用
でかい空間はTime of Flightが有用
モデル化
全体形状が欲しい場合異なる視点から計測してくっつける
位置合わせにはInteractive Closest Point法が広く使われる
2つのデータの頂点の間で最近傍探索をして対応する頂点の距離が最小になる相対位置姿勢を求める
統合
zipper法
ボリューメトリックな手法
1つの符号付距離場表現した後にメッシュデータにする
空間を均等に区切ったボクセルが表現が行われるので、正則なメッシュ構造が得られる
符号付距離場表現する方法
ボクセル中心から距離画像への画像への最近傍点を探索し、重み付の平均距離として求める
ボクセルの値が物体表面の内側と外側で符号が変わる
実装しないといまいちわからない基素.icon
メッシュデータにする方法
マーチングキューブ法などでゼロの面に三角パッチを貼ってメッシュを得る
色彩データマッピング
カラー画像を形状データ貼り付けたい
このためには、画像の画素と形状データの対応が必要
6個以上の対応点がある場合
最小二乗法などによって内部及び外部パラメータを同時に求める
対応点が未知(&カメラの内部パラメータは既知)の場合
形状データとカラー画像のエッジを用いて推定する
最近傍点が正しい対応点とは限らないので繰り返し計算して最適解を求める
5.2 ウェアラブルコンピュータ
5.2.1 概念
常時着用するコンピュータ(スマホよりもっと意識しないようなものを意図している)
Steve Mannが考える特徴
恒常性 consistancy 常に動作していて、いつでも利用できる
増幅性 augumentation ユーザーの作業を支援する
介在性 meditation ユーザーと外界のインタフェースとして機能する
プライバシー保護、情報フィルタ
雑想 2023/02/08 VRの価値#63e3fd92774b170000330f0bこれだ基素.icon
5.2.2 情報提示技術
種類
装着者自身に対する情報提示
単眼型HMD
この辺りは情報が古い(2012年以前)基素.icon
MciroOptical, SV-6(2003)
https://g.co/arts/u5wm5vrQFLi2pAuH9
オリンパス, Eye-Trek
https://www.youtube.com/watch?v=uMIlzvqUR04
Xybernaut, Mobile Assistant
MobileHackerz再起動日記: ザイブナーのウェアラブルコンピュータ MA-IV
骨伝導スピーカー
複雑なハードウェアを用いないインタフェース
背中に振動子をマトリックスに配置して触覚で方位情報を提示
触覚の仮現運動特性を利用
牽引力を錯覚させる
知覚の非線形性を利用
嗅覚ディスプレイ
装着者の周囲に対する情報提示
衣服を媒介とした表現
プラスチック光ファイバ POF を使った織物
2002年3月にフランステレコムの研究グループがビットマップ表示対応のPOFをつかったフレキシブルスクリーンを発表
POFを大きく屈曲数と光が漏れ出す特性を利用
Philips Lumalive
https://www.youtube.com/watch?v=gk3vUzXdnWM
衣服内配線
5.2.3 入力インターフェース技術
テキスト入力
キーボード
キーを小さくする場合、押し間違いの誤り補償機能が必須
Apple says it has fixed iPhone autocorrect with iOS 17 - 9to5Mac
ジェスチャ
手話
指にセンサを取り付けて振動検知
文字認識・音声認識
Twiddler
ソフトキーボード
HMDのディスプレイは画像処理性のがボトルネックで空間分解能が低くなることが多いのでキーボードの数を減らしたりする
現代のHMDには当てはまらない基素.icon
ノンバーバル情報入力
明示的なもの
ウェアラブルカメラの手の画像認識
ProCamを用いた認識(アクティブライティング)
距離を得るための投影光を含む映像を撮影するので精度が出やすい
読んでも腹落ちしない基素.icon
慣性センサ
無意識的なもの
社会受容性が普及のポイント
5.2.4 コンテキスト認識技術
コンテキストがわかると可能性の枝刈りができて便利
実世界のコンテキスト把握で有用かつ技術シーズが揃っているのは測位
GPS
利点:利用者がインフラ整備や運用コストを考えなくていい
30個前後の衛星で地球規模の測位が可能
欠点
空が遮蔽された場所では使えない
遅延
マルチパスの影響
超音波、電波、光通信(これらを総称してLocal Positioning System)
UWBはマルチパスに比較的強い
WiFiの基地局を収集して利用する方法がある
幾何学的レジストレーション
self-contained sensorをつかっとPedestrian Dead Reckoning
センサを足元に装着する場合
足が着地した際のゼロ速度更新 ZUPT によって多様な歩行動作に1つのモデルで(?)対応できる
壊れやすい
腰部に装着する場合
歩行速度を積分する
個人差を吸収できるようにモデル構築する必要あり
ジャイロのドリフト、磁場の歪み、外乱などのセンサの欠点を補償する必要あり
累積誤差は無くならず、絶対位置を与える必要があるので実際には他の手法と組み合わせる
上記の組み合わせやマップマッチング
行動認識
位置や姿勢以外にも色々コンテキスト情報を取得できる
操作履歴
手の動き、視線
eye tracking
動作
SVMやAdaBoostなどの機械学習が広く適用されている
情報が古い基素.icon
心理状態・生理状態
例:発汗をトリガとしたウェアラブブルカメラの映像要約
環境
一般物体認識、顔認識など
5.3 ユビキタスコンピューティング
5.3.1 概念
ubiquitous = 偏在する
現実世界のあらゆるところにコンピュータやネットワークによる情報処理機能を与えて、至る所で支援を受けることができるという概念
PARCのMark Weiserが提唱
Mark Weiser: "The Computer for the 21st Century" (1991)
類義語
pervasive computing
全面的に広がる
dissapearing computer
計算機やネットワークが目立たせずに後ろで支える存在になるというような意味
5.3.2 ユビキタス環境構築技術
ユビキタスインフラ
ハードウェア
実世界の情報を利用するためには、あらゆる場所やものの状況をセンシングして伝達する必要がある
このような無線ネットワークを無線Personal Area Networkという
IEEE802.15で標準化が行われている
Bluetooth
省電力性とネットワークのスケーラビリティに難あり
この後BLEがひろくつかわれている基素.icon
zigbee
最高通信速度が低速(250kbps)だが電池で数ヶ月から数年動作できる
ノードが65535個接続できる
サポートするネットワーク構造:スター型・メッシュ型・ツリー型
UWB
干渉を起こさない程度に電力を抑えて、広い帯域を使って通信をする(最大100Mbps)
ソフトウェア
課題
場所を移動する
リアクティブ型
通信を始める際に経路探索
プロアクティブ型
あらかじめ経路情報を交換して通路を決定する
センサーの位置情報を簡易に取得する方法
位置情報が既知のノード(ランドマーク)を利用して、複数のランドマークの位置情報の重心を位置とするCentroid測定
ランドマークからの情報を受信するまでに経由したノード数を元に、1ホップにおける平均距離を見積もってランドマークからの距離を測量 DV-Hop測定
電池が切れるかもしれない
TDMA
動作タイミングを順番管理
CSMA/CA
早い者勝ち
どういうこと?基素.icon
消費電力を均一にする手法
電波強度を適切にして長寿命化する手法
インタフェース
可視光通信インタフェース
人の目には知覚できない速さで点滅させて情報を伝える
可視光通信システム
送信側
LED
DLPプロジェクタ
各画素を表示するマイクロミラーはkHz単位で制御できるので画素単位で情報を埋め込むことができる
受信側
フォトダイオード
フォトトランジスタ
CMOSイメージセンサ
フォトセンサの2D配列したようなもの